🔥Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка
Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.
➡️PingPong Benchmarkтестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.
Оценка идет по трем критериям: - Соответствие персонажу — насколько точно модель играет свою роль. - Развлекательность — насколько интересны её ответы. - Языковая грамотность — естественность и корректность речи.
Результат — усредненный рейтинг по всем параметрам.
➡️Simple-Evals-RU— это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.
Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.
Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».
Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
🔥Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка
Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.
➡️PingPong Benchmarkтестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.
Оценка идет по трем критериям: - Соответствие персонажу — насколько точно модель играет свою роль. - Развлекательность — насколько интересны её ответы. - Языковая грамотность — естественность и корректность речи.
Результат — усредненный рейтинг по всем параметрам.
➡️Simple-Evals-RU— это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.
Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.
Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».
Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
Telegram’s stand out feature is its encryption scheme that keeps messages and media secure in transit. The scheme is known as MTProto and is based on 256-bit AES encryption, RSA encryption, and Diffie-Hellman key exchange. The result of this complicated and technical-sounding jargon? A messaging service that claims to keep your data safe.Why do we say claims? When dealing with security, you always want to leave room for scrutiny, and a few cryptography experts have criticized the system. Overall, any level of encryption is better than none, but a level of discretion should always be observed with any online connected system, even Telegram.
How Does Bitcoin Work?
Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”